类PPO强化学习三部曲:GRPO简化→DAPO修正→GSPO全面进化 本文虽然标题中提到“类 PPO 算法”,但更准确地说,DAPO 和 GSPO 都可以视作在 GRPO 框架下,针对不同任务场景的一系列演进方案。它们并非简单的替代,而是通过改进策略更新与约束机制,逐步修正了 GRPO 在实践中暴露出的若干缺陷。 token ppo grpo dapo gspo 2025-09-12 07:08 2